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基于 GPU 的 单 幅 图 像 去 费 的 实现 及 优化 
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摘 要 : 基于 暗 通道 先 验 规律 的 去 雾 算法 已 取得 了 良好 的 去 雾 效果 ， 但 算法 所 需要 的 计算 时 间 过 长 ， 无 法 达到 实时 去 
雾 的 要 求 。 使 用 GPU 初步 并 行 实现 了 去 雾 算 法 ， 并 确定 了 算法 中 需要 优化 的 部 分 。 在 优化 过 程 中 ， 一 方面 将 数据 存储 
到 高 速 内 存 中 以 实现 对 数据 的 快速 读 取 ， 另 一 方面 设计 新 的 算法 实现 方式 以 减少 算法 的 计算 量 ， 最 终 提高 了 加 速 比 。 
优化 后 的 加 速算 法 ， 处 理 768X1024 的 图 像 仅 需 21 ms， 达 到 了 实时 去 雾 的 要 求 。 
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Implementation and optimization of single image haze removal based on GPU 


Zhang Jin, Zhou Xiangquan, Shu Man, Wang Yulani, Wei Youhua, Liu Binli 
(Geomathematics Key Laboratory of Sichuan Province, Chengdu University of Technology, Chengdu 610059, China) 


Abstract: The defogging algorithm which based on dark channel prior has achieved good results, but the time spent on 
computing is too long to meet the requirements of real-time defogging. With parallel GPU, this paper implemented the defogging 
algorithm and it determined the portion of algorithm which need to optimized. During the optimization process, on the one hand, 
it stored the data in the high-speed memory to achieve rapid data read; on the other hand, designed a new algorithm 
implementation to reduce the amount of calculation, it improved the acceleration rate ultimately. The acceleration algorithm just 
need 21 ms when dealing with images of 768 X 1024 after optimized, it has reached real-time defogging implementation. 
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滤波 的 去 筋 算法 成 为 去 雾 技术 中 最 有 效 的 算法 之 一 。 
去 雾 技 术 已 日 趋 成 熟 ， 那 么 现在 需要 解决 的 就 是 如 何 快 速 

大 气 中 悬浮 筋 、 才 等 类 似 大 气 粒子 的 散射 导致 场景 能 见 实现 。 最 初 使 用 软 抠 图 时 处 理 一 张 600x400 的 图 像 大 约 需 要 
ee 10~20 sIg， 使 用 导向 滤波 可 以 缩短 计算 时 间 ， 都 仍 达 不 到 实时 
一 定 程 度 的 衰减 帆 。 而 在 计算 机 视觉 和 图 像 处 理 领 域 ， 如 目标 ”的 要 求 ， 且 对 于 分 辩 率 更 高 的 图 像 ， 其 计算 速度 依然 较 慢 ， 医 
探测 、 户 外 监控 、 遥感 图 像 处 理 等 中, 都 需要 能 还 原 真实 场景 也 此 ， 需 要 更 快 地 实现 技术 中 。 自 2007 年 NVIDIA 团队 推出 了 
高 质量 图 像 ， 且 在 实时 导航 、 自 动 驾 驶 等 需要 实时 响应 的 技术 ”CUDA 接口 ， 便 于 研究 者 使 用 GPU 进行 研发 ， 基 于 GPU 的 
领域 中 , 不 仅 需要 有 效 地 去 雾 技术 , 更 需要 快速 地 实现 技术 中]。 快速 去 雾 技术 也 被 研究 者 们 实现 , 如 Lvy 等 人 忠 使 用 GPU 处 理 
对 于 去 雾 技术 ， 追 求 的 是 更 好 的 去 雾 效 果 、 更 广 的 适用 范 ”600x400 的 图 像 所 需 0.083 s; Xue 等 人 [SI 也 使 用 GPU 实现 了 算 
恒 、 更 低 的 算法 复杂 度 内 ,目前 比较 受 推崇 的 去 雾 技术 是 He 等 法 , 最终 处 理 时 间 0.036s 左右 等 。 计 算 时 间 已 被 缩短 ， 但 对 了 
人 中 提出 的 基于 上 暗 通 道 先 验 的 去 筋 方法 ， 该 方法 有 较 好 的 去 筋 。 ”高清 图 像 ， 加 速效 果 依 然 不 够 。 因 此 ， 本 文 深入 探讨 了 算法 加 
效果 以 及 适用 范围 ， 该 方法 最 开始 采用 的 是 软 抠 图 (Softimage 速 的 优化 部 分 ， 从 高 速 内 存 的 高 效率 使 用 以 及 减少 算法 复杂 度 
matting ) 优化 透射 率 ， 算 法 复杂 度 较 高 ， 而 后 He 等 人 器 采用 导 ”两 方面 入 手 ， 进 一 步 提 高 了 算法 的 加 速 比 ， 对 高 清 图 像 基 本 达 
向 滤波 取代 了 软 抠 图 ， 而 导向 滤波 的 算法 复杂 度 是 线性 的 ， 六 到 实时 处 理 的 效果 。 
证 明了 其 去 雾 效果 与 使 用 软 抠 图 时 基本 相同 ， 因 此 ， 采 用 导向 
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算法 简介 


外 ， 即 


T(x)= (x)t(x) + A —t(x)) 


目前 广泛 使 用 的 雾 图 形成 模型 是 由 大 气 散 射 模型 变形 而 来 


(1) 


其 中 : I(X%) 表 示 需 要 去 和 雾 的 原始 图 像 ; JC9O 是 需要 恢复 的 图 像 (无 


完 


如 


常 
为 


雾 图 像 )，A 表示 大 气 环 境 光 ; 
I(x) 恢 复 到 J(x)。 暗 通道 先 验 规律 是 指 : 无 筋 图 像 的 暗 通 道 


亮度 很 小 ， 趋 近 于 零 四 。 


J CD= min, (minw OO 0 


t(X) 为 透射 率 。 去 雾 算 法 就 是 从 


首 像素 


2) 


基于 暗 通道 先 验 规律 ， 才 有 了 这 个 去 雾 算法 ， 其 算法 流程 


图 1 所 示 。 


图 1 图 像 去 雾 算法 流程 


具体 步骤 如 下 : 


a) 计算 瞳 通道 。 设 原始 图 像 在 Q(x) 的 区 域内 ， 透 射 率 为 


数 FD ， 此 时 


的 透射 率 为 粗略 透射 率 ， 则 原始 图 像 的 暗 通道 


A se sd) 


G3) 
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Nn 
张 津 ， 等 : 基于 GPU 的 单 幅 图 像 的 实现 及 优化 


b) 估计 大 气 光 。 选 取 暗 通道 中 亮度 最 大 的 0.1% 像 素 ， 并 
根据 这 些 像素 点 的 位 置 获取 原始 图 像 中 与 之 对 应 的 颜色 数值 ， 
计算 器 均值 作为 大 气 光 的 估计 值 4 。 

c) 计算 粗略 透射 率 。 由 于 Jer(x) <0 ， 可 推出 : 


Tk (x ) (4) 
A 


f(x)=1-@ 


大 气 不 可 能 没有 任何 颗粒 号， 彻底 清除 雾 狂 ， 图 像 可 能 
看 起 来 不 自然 。 因 此 ， 引 入 了 一 个 参数 加 ， 使 图 像 保留 了 非常 
小 的 雾 度 ,参考 文献 将 其 固定 为 0.95, 表示 保留 0.05 的 雾 度 71。 
d) 计算 灰色 图 与 优化 透射 率 。 如 果 使 用 粗略 透射 率 还 原 图 
像 , 会 出 现 “ 块 效应 ”11, 使 用 导向 滤波 算法 优化 粗略 透射 率 。 


1 
— > 1p,—W.p 
jo? HB (5) 
: Ol+E 
b= BP. -ap (6) 


其 中 : I 为 参考 图 像 (He 提供 的 MATLAB 代码 中 了 I 为 原始 图 
像 的 灰 度 图 ， 本 文 也 采用 同样 的 方法 ); p 为 粗略 透射 率 ; 9 为 
需要 求解 的 优化 后 的 透射 率 , 在 局 部 领域 内 a、b 取 平 均值 , 得 
出 


B= Fh 


loli 
gq =al,+b, (8) 
e) 复原 图 像 。 为 避免 透射 率 过 小 ， 恢 复 的 时 候 产 生 噪声 ， 
设 定 了 下 限 值 如 为 0.1， 恢 复 公 式 为 
T(x)—A 
max(t(x),t0) 
本 文 主要 介绍 算法 的 加 速 及 优化 ， 具 体 的 算法 流程 和 公式 
请 参考 文献 [6,7]。 本 文 的 去 雾 效 果 如 图 2 所 示 。 


(9) 


像 去 雾 效 果 
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图 2(a)(c) 为 原始 图 像 ， 即 有 雾 的 图 像 ，(pb)(d) 为 去 筋 后 的 图 


通过 与 文献 [7] 提 
计算 结果 基本 相同 。 


并 行 加 速 和 优化 


采 


月 CUDA 平台 的 GPU 


t 的 MATLAB 代码 的 计算 出 的 像素 点 数 


行 加 速 ,需要 了 解 其 硬件 体系 。 


CUDA 设备 的 核心 是 由 一 个 可 扩展 的 流 多 处 理 器 (streaming 


multiprocessors SMs, ) 整 列 组 成 ， 当 调用 
程 块 block) 为 划分 


内 核 函数 时 ，SM 以 线 


位 划分 计算 资源 ， 同 一 个 SM 上 并 发 执 


行 多 个 线程 块 中 的 多 个 线程 (thread )， 每 个 线程 负责 计算 一 个 
或 多 个 数据 , 这 就 是 CUDA 的 SIMT (single instruction, multiple 
thread ) 执行 模型 09。 
本 文 加 速 设计 是 一 个 线程 执行 一 个 像素 点 的 计算 ， 线 程 块 


与 线程 都 以 二 维 的 形式 ， 以 便于 与 图 像 的 像素 点 一 一 对 应 ， 如 
图 3 所 示 。 
线程 网 格 图 像 网 格 
SM Block(0.1) Block(0,2) Block(0,3) 
Block(0.0) | BlockoD | alock(02) = : 
A alockL0) | sak) | alock(12) 


Block(1,0) 


Thread(0.0) 


Thread(0.1) | Thread(0.2) | Thread(0.3) 


Thread(1.0) 


Thread(1,2) | Thread(1,3) 


Thread(2.0) 


Thread(2.3) 


Thread(3.0) 


Thread| Thread(3.2) | Thread(3.3) 


Thread(1,1) 
I 
(3， 


) 
) | Thread(2.2) 
) 


需要 提 
根据 算法 复杂 度 分 析 划 


线程 网 格 初步 设计 完毕 ， 


J FE 
T T T 
Block(1.0) Block(1,1) Block(0.2) 


图 3 线程 网 格 与 图 像 网 格 的 对 应 关系 


现在 先 分 析 整 个 算法 中 哪些 步 又 
高 性 能 ， 即 找 出 哪些 步骤 占 程序 的 大 部 分 运行 时 间 ， 再 


并 行 性 ， 估 计 


其 并 行 加 速效 果 ， 


如 果 


行 度 高 ， 再 进 


出 ,整个 算法 中 费时 的 步骤 主要 是 计算 暗 通 
上 ， 本 文 主要 讨论 这 两 个 步骤 的 加 速 以 及 优化 ， 其 余 步 骤 基 


因 出 


步 优 化 ， 以 提高 算法 的 加 速 比 。 


CPU 去 筋 算法 各 步 又 计算 时 间 
估计 大 气 光 


图 像 复原 
优化 透射 率 


计算 灰 度 图 


粗略 透射 率 _ SS 


CPU 去 雾 算法 各 步骤 计算 时 间 如 


本 


2.1 


的 


计算 暗 通道 


瞳 通道 的 计算 量 不 仅 受 图 像 尺 寸 大 小 的 影响 ， 还 
道 的 宽度 为 1,， 图像 的 尺寸 为 m*n， 则 暗 i 


宽度 有 关 , 设 暗 通 


计算 暗 通道 


图 4 CPU 去 雾 算法 各 步 又 计算 时 间 


由 图 4 可 看 
道 以 及 优化 透射 率 ， 


行 加 速 即 可 ,对 于 整个 程序 的 运行 时 间 并 没有 多 大 的 影响 。 


还 与 按 通 道 
通 


张 津 ， 等 : 基于 GP 
道 的 计算 量 大 致 为 m*n*r*r*3， 除 了 计算 量 较 大 之 外 ， 还 有 一 
些 在 实际 算法 实现 中 的 难点 ,例如 在 计算 图 像 边缘 的 暗 通道 时 ， 
会 出 现 越界 现象 ， 如 图 5 所 示 。 


(-1L-  (-10) 


(-1,1) 


(0.-1) 


(1.-1) 


图 5 计算 暗 通 


道 的 难点 分 析 


对 于 图 5 左上 角 的 第 一 个 像素 点 (黑色 方块 ), 设 暗 通道 的 
宽度 为 3， 则 有 五 个 像素 点 属于 越界 ， 在 实际 计算 中 ， 需 要 判 
断 上 下 左右 四 个 方向 是 否 越界 ， 且 计算 暗 通 道 是 找 出 通道 内 的 
最 小 值 ， 所 以 整个 计算 涉及 了 大 量 的 判断 语句 ， 导 致 该 步骤 运 
行 时 间 过 长 。 

图 5 的 右 侧 ， 像 素 点 (1，4) 和 (3，4) 在 计算 暗 通道 时 
会 出 现 重复 加 载 数 据 (图 中 的 三 个 黄色 方块 ), 可 以 将 数据 先 读 
取 到 一 个 拥有 高 速 带宽 的 内 存 中 ， 以 减少 对 全 局 内 存 的 访问 。 
寄存 器 是 访问 最 快 的 内 存 ， 但 寄存 器 是 每 个 线程 私有 的 且 容 量 


有 限 50， 而 相 邻 线程 计算 所 需 的 数据 有 部 分 重 三 ， 因 此 ， 使 用 
* 享 内 存 ， 即 能 满足 线程 之 间 数 据 的 重复 使 用 ， 又 能 满足 对 数 
据 的 快速 读 取 。 


(a) (b) 


(0) 
图 6 数据 从 全 局 内 存 到 


(d) 
享 内 存 的 读 取 方 式 


设 暗 通道 的 宽度 为 3, 图 6(a) 中 白色 区 域 为 一 个 线程 块 ， 
ee 
色 方块 为 计算 暗 通 道 所 需要 的 “越界 ”数据 ， 图 6 (b)(c) 中 
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黄色 方块 的 线程 需要 读 取 包 括 自 身 以 及 周围 桩 色 方 块 的 区 域 的 


数据 ，6(d) 中 灰色 方块 仅 需 读 取 自 身 所 在 区 域 的 数据 ， 通 过 
这 种 方式 读 取 ， 可 以 将 该 线程 块 中 所 有 线程 计算 所 需 的 数据 存 
储 在 共享 内 存 中 。 但 对 于 全 部 数据 ， 不 同 的 线程 块 也 会 出 现 重 


同 线程 块 之 间 的 数据 的 重复 读 取 


图 7 村 


Ej 


每 个 线程 块 读 取 的 数据 如 图 6 (a) 所 示 。 不同 线程 块 之 间 
的 数据 的 重复 读 取 如 图 7 所 示 。 再 根据 图 7 可 知 ， 相 邻 线程 块 
对 于 “越界 ”数据 是 会 出 现 重 复读 取 的 , 黄色 区 域 为 读 取 1 次 ， 
检 色 区 域 表 示 读 取 2 次 ， 而 黑色 区 域 为 4 次 。 但 总 体 而 言 ， 使 
日 共享 内 存 减少 了 对 全 局 内 存 的 访问 。 


GPU 上 暗 通 道 计算 时 间 比 较 图 


单位 : ms 有 

; 6.67 

6 5.01 

5 

4 3.56 

3 2.4 | 

2 1.45 a L172 

1 =“ 四 < | 一 | 国 同 

暗 通 道 宽度 7 9 11 13 15 了 

加 共享 内 存 日 全 局 内 存 

图 8 使 用 共享 内 存 与 全 局 内 存 的 GPU 暗 通 道 计算 时 间 对 比 

使 用 共享 内 存 与 全 局 内 存 的 GPU 暗 通道 计算 时 间 对 比如 
图 8 所 示 。 根 据 图 8 可 看 出 ， 使 用 共享 内 存 ， 能 有 效 地 减少 算 


法 的 计算 时 间 ， 使 用 共享 内 存 后 计算 速度 平均 为 使 用 全 局 内 存 
的 7 倍 ， 充 分 利用 高 速 内 存 ， 有 效 地 提高 加 速 比 。 
2.2 优化 透射 率 

优化 透射 率 的 公式 为 式 (5) ~ (8)。 若 直接 根据 公式 加 速 
算法 ， 通 过 合并 核 函 数 后 仅 需 启动 两 个 核 函 数 即 可 ， 但 需要 考 
虑 边界 、 共 享 内 存 的 大 小 、 合 并 访 存 等 问题 ， 而 导向 滤波 则 需 
要 启动 二 十 多 次 内 核 函 数 ， 且 多 次 调用 box_filter 函数 。 为 此 ， 
作 了 多 次 实验 ， 分 析 了 在 不 同 的 窗口 大 小 的 情况 下 ， 两 种 算法 
计算 所 需 的 时 长 。 

两 种 优化 透射 率 方法 计算 时 长 的 比较 如 图 9 所 示 。 由 图 9 
可 看 出 ， 随 窗口 宽度 变 大 ,使 用 box _filter 函数 的 优势 越 大 ,所 
以 本 次 实验 使 用 box_filter 函数 。box_filter 函数 在 并 行 中 分 为 
两 个 部 分 ， 一 部 分 是 行 中 实现 累加 ， 另 一 部 分 是 在 列 中 实现 累 
加 ， 其 余 的 都 是 一 些 简单 的 矩阵 运算 。 因 此 ， 优 化 并 行 加 速 就 
得 提高 累加 效率 。 
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图 10 累加 的 一 般 并 行 方法 


图 10 显示 了 累加 的 初步 加 速 方法 ， 只 有 8 个 数据 时 也 需 
要 进行 17 次 加 法 运算 。 当 数据 量 为 N 时 ， 需 要 进行 (N-1)+(N- 
DTN-4)+...+N/2 次 ， 即 Nlog2)-(N-1) 次 运算 ， 计 算 效 率 太 低 
了 ， 随 着 N 的 增 大 ， 所 需要 的 计算 时 间 也 急剧 增长 。 
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图 11 优化 后 的 并 行 累加 


图 11 为 优化 后 的 并 行 累加 。 可 以 看 出 ， 同 样 是 8 个 数据 ， 
一 共 只 需要 11 次 运算 , 依然 假设 数据 量 为 N， 则 优化 后 的 累加 
算法 需要 (N-1)+(N/2-1)+...+(4-1)+(2-1), 即 2N-log2(N)-2 次 运算 ， 
算法 复杂 度 降低 了 很 多 。 

初始 版 本 与 优化 版 本 的 计算 量 比较 如 图 12 所 示 。 优 化 版 
本 的 计算 量 是 呈 线 性 增长 的 , 根据 图 12 可 看 出 , 相 比 于 初始 版 
本 ， 计 算 1 024 个 数据 时 仅 需要 四 分 之 一 不 到 的 计算 资源 。 医 
此 ， 随 着 图 像 尺寸 的 增 大 ， 加 速效 果 也 会 越 来 越 明显 。 
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累加 计算 量 比较 图 
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图 12 初始 版 本 与 优化 版 本 的 计算 量 比较 


实验 结果 


与 本 次 实验 相关 的 环境 如 表 1 所 示 ， 程 序 运行 版 本 为 


Telease。 
表 1 实验 环境 
硬件 环境 : 
AMD FX(tm)-6300 Six-Core Processor 3.50GHz 
主机 端 
8.00GB 内 存 
设备 端 : GeForce GTX970 GPU，4GB 显存 
软件 环境 : 
Microsoft Windows 10(64bit Edition), 
主机 端 : 
Microsoft Visual Studio 2013 
设备 端 ; CUDA Toolkit 7.5 


在 此 环境 下 ,实验 了 不 同 尺寸 的 图 像 , 其 效果 如 表 2 所 示 。 
表 2 不 同 尺 寸 图 像 的 计算 时 间 


CPU 版 本 GPU 初始 版 本 GPU 优化 版 本 


图 像 尺寸 

/ms /ms /ms 
300*400 220.41 32.13 4.3 
400*600 431.57 60.06 7.36 
600*800 823.18 127.53 14.18 
768*1024 1269.24 173.72 20.91 


表 2 可 看 出 ， 优 化 后 的 版 本 工作 效率 大 约 是 优化 前 的 十 


倍 左右 ， 对 于 768*1024 高 分 辩 率 图 像 ， 也 仅 需 21 ms 不 到 ， 也 
就 是 说 近 50 帧 每 秒 ， 这 已 经 达到 实时 处 理 的 要 求 了 。 
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结束 语 


国内 外 已 有 不 少 对 去 雾 算 法 的 加 速 研究 ， 本 文 对 于 


600*400 的 图 像 的 处 理 速 度 确 实 优 于 前 人 ， 然 而 因为 不 同 的 实 
验 环境 ， 实 在 难以 比较 哪 种 方案 的 优 劣 。 而 本 文 的 重点 是 提出 


了 对 于 加 速 优 


化 的 一 些 建 议 ， 主 要 是 以 下 两 点 : 
a) 充 分 利用 硬件 设施 中 的 高 速 内 存 ， 减 少 对 全 局 内 存 的 访 


问 。 如 果 该 数据 是 同一 个 线程 块 中 的 不 同 线程 需要 重复 使 用 的 ， 
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可 以 存储 到 共享 内 存 中 ， 如 果 数 据 量 小 ， 且 是 线程 私有 的 ， 可 
放 入 寄存 器 。 

b) 降 低 算 法 的 复杂 度 ， 有 效 地 减少 计算 量 。 同 一 个 算法 也 
会 有 不 同 的 实现 方式 ， 尽 量 在 保证 算法 并 行 度 的 同时 降低 复杂 
度 。 

对 于 去 雾 算 法 的 并 行 优 化 ， 下 一 步 工作 是 : 数据 存储 到 共 
享 内 存 中 时 ， 如 何以 合并 访 存 的 方式 对 全 局 内 存 进行 访问 ， 在 
优化 透射 率 的 时 候 减 少 内 核 函 数 的 启动 开销 。 
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